JP Language Model Evaluation Harness
JGLUE + QA、要約、照応解析、数学のタスクなど
様々な日本語タスクに対するモデルの few-shot 評価をまとめている。
url
https://github.com/Stability-AI/lm-evaluation-harness/tree/jp-stable
タスクの詳細
https://github.com/Stability-AI/lm-evaluation-harness/blob/jp-stable/docs/jptasks.md
JGLUE: JSQuAD、JCommonsenseQA、JNLI、MARK-ja、JCoLA
JaQuAD
日本語質問応答データセット
JBLiMP
日本語の言語モデルを対象とした構文評価のためのデータセット
Wikilingua (ダウンロードできず...)
Wikihowの記事から作成された文書を使った要約タスク
元のデータセットは多言語であるが、現在は日本語版のみが追加されている。
XLSum-ja
XWinograd
Winograd Schemaの文のペアの集合である。
例えば
ボブはトムに尋ねた。トムはお金をいくらか貸してくれるかと。
ボブはトムに尋ねた。ボブはお金をいくらか貸してくれるかと。
この場合、最初の文章が正解
JAQKET v1/v2
Wikipediaの記事タイトルを解答とする日本のオープンドメインQAデータセット
MGSM